在广泛的任务中,在包括医疗处理,广告和营销和政策制定的发​​展中,对观测数据进行因果推断非常有用。使用观察数据进行因果推断有两种重大挑战:治疗分配异质性(\ Texit {IE},治疗和未经处理的群体之间的差异),并且没有反事实数据(\ TEXTIT {IE},不知道是什么已经发生了,如果确实得到治疗的人,反而尚未得到治疗)。通过组合结构化推论和有针对性的学习来解决这两个挑战。在结构方面,我们将联合分布分解为风险,混淆,仪器和杂项因素,以及在目标学习方面,我们应用来自影响曲线的规则器,以减少残余偏差。进行了一项消融研究,对基准数据集进行评估表明,TVAE具有竞争力和最先进的艺术表现。
translated by 谷歌翻译
Extracting complex structures from grid-based data is a common key step in automated medical image analysis. The conventional solution to recovering tree-structured geometries typically involves computing the minimal cost path through intermediate representations derived from segmentation masks. However, this methodology has significant limitations in the context of projective imaging of tree-structured 3D anatomical data such as coronary arteries, since there are often overlapping branches in the 2D projection. In this work, we propose a novel approach to predicting tree connectivity structure which reformulates the task as an optimization problem over individual steps of a recursive process. We design and train a two-stage model which leverages the UNet and Transformer architectures and introduces an image-based prompting technique. Our proposed method achieves compelling results on a pair of synthetic datasets, and outperforms a shortest-path baseline.
translated by 谷歌翻译
The distributed representation of symbols is one of the key technologies in machine learning systems today, playing a pivotal role in modern natural language processing. Traditional word embeddings associate a separate vector with each word. While this approach is simple and leads to good performance, it requires a lot of memory for representing a large vocabulary. To reduce the memory footprint, the default embedding layer in spaCy is a hash embeddings layer. It is a stochastic approximation of traditional embeddings that provides unique vectors for a large number of words without explicitly storing a separate vector for each of them. To be able to compute meaningful representations for both known and unknown words, hash embeddings represent each word as a summary of the normalized word form, subword information and word shape. Together, these features produce a multi-embedding of a word. In this technical report we lay out a bit of history and introduce the embedding methods in spaCy in detail. Second, we critically evaluate the hash embedding architecture with multi-embeddings on Named Entity Recognition datasets from a variety of domains and languages. The experiments validate most key design choices behind spaCy's embedders, but we also uncover a few surprising results.
translated by 谷歌翻译
Question Answering (QA) is a growing area of research, often used to facilitate the extraction of information from within documents. State-of-the-art QA models are usually pre-trained on domain-general corpora like Wikipedia and thus tend to struggle on out-of-domain documents without fine-tuning. We demonstrate that synthetic domain-specific datasets can be generated easily using domain-general models, while still providing significant improvements to QA performance. We present two new tools for this task: A flexible pipeline for validating the synthetic QA data and training downstream models on it, and an online interface to facilitate human annotation of this generated data. Using this interface, crowdworkers labelled 1117 synthetic QA pairs, which we then used to fine-tune downstream models and improve domain-specific QA performance by 8.75 F1.
translated by 谷歌翻译
2型糖尿病(T2DM)的早期诊断对于及时的治疗干预措施和生活方式改变至关重要。随着医学成像数据在许多患者群体中变得更广泛可用,我们试图研究是否可以在表格学习分类器模型中利用图像衍生的表型数据来预测T2DM的发病率,而无需使用侵入性血液实验室测量。我们表明,使用图像衍生表型的神经网络和决策树模型都可以预测患者T2DM状态的召回评分高达87.6%。我们还提出了与“ Syntha1c编码器”相同的结构的新颖使用,这些结构能够输出模仿血液血红蛋白A1C经验实验室测量值的可解释值。最后,我们证明了T2DM风险预测模型对输入矢量成分中小扰动的敏感性可用于预测从以前看不见的患者人群中取样的协变量的性能。
translated by 谷歌翻译
目的:本研究评估了市售可解释的AI算法在增强临床医生在胸部X射线(CXR)上鉴定肺癌的能力的影响。设计:这项回顾性研究评估了11位临床医生在胸部X光片中检测肺癌的表现,并在有和没有市售的AI算法的帮助下(红点,观察到),预测CXRS可疑的肺癌。根据临床确定的诊断评估了临床医生的表现。设置:该研究分析了NHS医院的匿名患者数据;该数据集由成年患者(18岁及以上)的400张胸部X光片组成,他们在2020年进行了CXR,并提供相应的临床文本报告。参与者:由11位临床医生(放射科医生,放射科医生受训者和报告射线照相师)组成的读者小组参加。主要结果指标:临床医生在CXR上检测肺癌的总体准确性,敏感性,特异性和精度,有或没有AI输入。还评估了有或没有AI输入的临床医生与绩效标准偏差之间的协议率。结果:临床医生对AI算法的使用导致肺部肿瘤检测的总体性能提高,从而达到了在CXR上鉴定出的肺癌的总体增长17.4% ,分别增加了13%和13%的阶段1和2期肺癌的检测,以及临床医生表现的标准化。结论:这项研究在AI算法的临床实用性方面表现出了巨大的希望,可以通过整体改善读者表现来改善早期肺癌诊断和促进健康平等,而不会影响下游成像资源。
translated by 谷歌翻译
因果鉴定是因果推理文献的核心,在该文献中提出了完整的算法来识别感兴趣的因果问题。这些算法的有效性取决于访问正确指定的因果结构的限制性假设。在这项工作中,我们研究了可获得因果结构概率模型的环境。具体而言,因果图中的边缘是分配的概率,例如,可能代表来自领域专家的信念程度。另外,关于边缘的不确定的可能反映了特定统计检验的置信度。在这种情况下自然出现的问题是:给定这样的概率图和感兴趣的特定因果效应,哪些具有最高合理性的子图是什么?我们表明回答这个问题减少了解决NP-HARD组合优化问题,我们称之为边缘ID问题。我们提出有效的算法来近似此问题,并评估我们针对现实世界网络和随机生成图的算法。
translated by 谷歌翻译
我们介绍了在视频中发现时间精确,细粒度事件的任务(检测到时间事件的精确时刻)。精确的斑点需要模型在全球范围内对全日制动作规模进行推理,并在本地识别微妙的框架外观和运动差异,以识别这些动作过程中事件的识别。令人惊讶的是,我们发现,最高的绩效解决方案可用于先前的视频理解任务,例如操作检测和细分,不能同时满足这两个要求。作为响应,我们提出了E2E点,这是一种紧凑的端到端模型,在精确的发现任务上表现良好,可以在单个GPU上快速培训。我们证明,E2E点的表现明显优于最近根据视频动作检测,细分和将文献发现到精确的发现任务的基线。最后,我们为几个细粒度的运动动作数据集贡献了新的注释和分裂,以使这些数据集适用于未来的精确发现工作。
translated by 谷歌翻译
通过一系列联邦举措和命令,美国政府一直在努力确保美国在AI中的领导。这些广泛的战略文件影响了美国空军美国部(DAF)等组织。DAF-MIT AI加速器是DAF和MIT之间的一项计划,以弥合AI研究人员与DAF任务要求之间的差距。DAF-MIT AI加速器支持的几个项目正在开发公共挑战问题,这些问题解决了许多联邦AI研究的重点。这些挑战是通过公开可用的大型AI-Ready数据集,激励开源解决方案,并为可以激发进一步研究的双重使用技术创建需求信号,来针对优先事项。在本文中,我们描述了正在开发的这些公共挑战以及它们的应用如何促进科学进步。
translated by 谷歌翻译
直接从图像中提取流体运动的信息具有挑战性。流体流量代表一个由Navier-Stokes方程控制的复杂动态系统。一般的光流法通常是为刚体运动设计的,因此如果直接应用于流体运动估计,则努力挣扎。此外,光流方法仅专注于两个连续的帧而不利用历史时间信息,而流体运动(速度场)可以被视为受时间依赖性偏微分方程(PDE)约束的连续轨迹。这种差异有可能引起身体上不一致的估计。在这里,我们提出了一种基于学习的预测校正方案,以进行流体流量估计。首先由PDE受限的光流预测器给出估计值,然后由基于物理的校正器来完善。与现有的基于基于学习的学习方法相比,所提出的方法比在基准数据集上的现有基于监督的学习方法相比,表现出竞争性结果。此外,所提出的方法可以推广到复杂的现实世界情景,在这种情况下,地面真理信息实际上是不可知的。最后,实验表明,物理校正器可以通过模仿通常在流体动力学模拟中使用的操作员分裂方法来完善流量估计。
translated by 谷歌翻译